Lecture 11：机器终生学习 Lifelong Learning

Lectured by HUNG-YI LEE (李宏毅) Recorded by Yusheng zhao（yszhao0717@gmail.com）

Lecture 11：机器终生学习 Lifelong LearningLife Long Learning(LLL)介绍LLL的应用意义LLL的难点思考为什么不让一个模型学一个任务呢？Lifelong v.s. Transfer如何评估Life Long Learning？（Evaluation）Life Long Learning的几种可能解法（Research Directions）Selective Synaptic Plasticity（最为完整的一种方法）为什么Catastrophic Forgetting会发生？如何找到每个参数的重要性度量 $b_i$ referenceGradient Episodic Memory（GEM）Additional Neural Resource Allocation最早的做法：Progressive Neural NetworksPackNet两种方法的结合：Compacting, Picking, and Growing (CPG)Memory Reply化解task不对称（class数目不一致）的方法Life Long Learning其他不同的情景LLL调换task顺序：Curriculum LearningElastic Weight Consolidation（EWC）——可塑权重巩固

什么是lifelong learning——活到老学到老，这里的主体是人类。类似的，机器也可以做lifelong learning，机器的终身学习非常符合人类对AI的想象。

先教机器做task 1，接下来教它做task 2，然后教 task 3，……AI可以不断学习新任务，这个构想就是Life Long Learning。

Life Long Learning(LLL)介绍

别称：Continuous Learning、Never Ending Learning、Incremental Learning（增量学习）

LLL的应用意义

Real-world Applications：开发出一款机器学习模型，模型上线后（online），会得到用户的反馈（feedback）；这时数据集的扩充成为一个新的循环。

机器不断搜集线上的资料，再用线上的资料来更新模型，这本质上就是一个LLL的问题。

LLL的难点

E.g. 1：以两个任务举例来说：

手写数字识别，其中task 1中图像里边有杂讯；而task 2比较简单，图片没有杂讯。（可以说是一个任务，两个domain）实做中，终身学习的不同任务也是类似于这种情况（任务目标一致，只是分属于不同的domain，在终身学习中被看作是不同的任务）。

以一个3层（每层50个神经元）的网络为例，（如左图）先学任务一，在任务一的正确率达90%，此时即便没看过任务二，也能在任务二上达到96%。

先学任务一，再让同一个模型学习任务二；即同一个模型用任务二来更新，此时任务2的正确率会更高；但是此时模型在任务一上的表现变差。

另外一个实验，把任务一和任务二的资料合并一起，同时取训练一个network。结果如下

对于一个network而言，其想同时学会两个任务是完全办得到的。

总结：对于network而言，其完全有能力在多任务上表现良好（合并数据集训练）；然而，再LLL的pattern下，先学一个任务，再由另外任务更新模型，会出现在现有任务表现好，但之前任务表现糟糕的现象。

E.g. 2：以NLP为例，QA任务：给定一篇文本，基于文本回答问题。（Given a document, answer the question based on the document）
There are 20 QA tasks in bAbi corpus.（bAbi是比较古早的QA任务）
20个任务就train20个QA模型。一字排开，按序学习。
一学新的任务，旧的任务就忘得精光。右边图是机器同时学20个任务的时候，事实上机器可以同时学会多个任务。而让机器依序学习任务时，Machine forget what it has learned when it is learning the new.
（我的脑袋和机器的一样┭┮﹏┭┮）——这种现象称之为Catastrophic Forgetting

思考

多任务学习（Multi-task training）好像比终身学习效果好，那为什么要做终身学习？Multi-task training需要使用所有数据来完成训练，这表明如果任务数量比较多的时候，Multi-task training会导致存储资源压力过大而且加剧运算资源的消耗。（Computation issue & Storage issue）
因此，Multi-task training不是做终身学习的最佳选择方式；反之，multi-task learning可以看作是终身学习的upper bound。
在实操过程中，我们在做一个LLL之前，会跑一个相对应的multi-task learning康康LLL的大概上限。我们在LLL上的改进优化，就是为了逼近这个上限结果。
LLL的主旨在于“不准复习”的情况下，可不可以减少甚至不遗忘，达到其自身的upper bound。

为什么不让一个模型学一个任务呢？

Train a model for each task.

局限性：

最终我们无法存储下所有模型（Storage Issue）
不同的任务间知识难以迁移。（Knowledge cannot transfer across different tasks.）

Lifelong v.s. Transfer

有人觉得LLL和迁移学习很像嘛，实际上有区别的。

区别：（关注点不同）LLL还要关注原任务上的性能；而迁移学习只关注在新任务上的performance

如何评估Life Long Learning？（Evaluation）

以https://arxiv.org/pdf/1904.07734.pdf为例：

首先，我们需要一串tasks，以MNIST为例，这些任务通常都是相关的，但属于不同的domain。
把每一个数字用某种固定的规则打乱，形成另一个任务数据集的domain；每一个打乱规则就对应一个task的domain。
评估方法：我们有T个任务。
训练前，随机初始化参数，在T个任务上计算正确率。
$i(i=1,2,...,T)$ 个任务上训练后得到的NN在T个任务上test下，计算得出正确率。最终我们就会得到一个表格👇
$R_{i,j}:$ $i$ $j$ 上的表现。
- $i > j:$ $R_{i,j}:$ 表现不错，表示在未来的任务上训练后在过去任务性能表现良好
- $i < j:$ $R_{i,j}$ $j$ ，想知道机器是否具有“无师自通”的能力。

Accuracy= \frac{1}{T}\sum^T_{i=1}R_{T,i}

这个量度就是把最后一行加起来，做一个平均；来评估一个LLL系统的好坏。

另外一种评估方法👇

Backward \ Transfer = \frac{1}{T-1}\sum^{T-1}_{i=1}(R_{T,i} - R_{i,i})

这个值通常是负值。相对应的另一种评估方式，再没学时任务T，计算学到任务T-1时任务T上的表现和训练前任务T上的表现之差值。

Forward \ Transfer = \frac{1}{T-1}\sum^T_{i=2}R_{i-1,i} - R_{0,i}

Life Long Learning的几种可能解法（Research Directions）

Selective Synaptic Plasticity（最为完整的一种方法）

可选择的 · 突触的 · 可塑性：让NN中部分的联结具备可塑性或者弹性（这种方法也称之为Regularization Based Approach）

为什么Catastrophic Forgetting会发生？

$\theta^0$ $\theta^b$ $\theta^b$ $\theta^*$ $\theta^*$ 拿回到task 1上，变现差了（表现出forget的特点）。

克服难点的做法：需要对后续任务的梯度下降做一个限制；一方面自身在朝loss下降的方向迭代的时候，另一方面也要考虑到前序任务在这个参数组下的loss的表现。

Basic Idea：ome parameters in the model are important to the previous tasks. Only change the unimportant parameters.

当我们在学习新的任务时候，希望哪些在旧任务上比较重要的参数尽量不要变；只去改那些不太重要的参数。

$\bf{\theta^b}$ $\theta^b_i$ $b_i$ ，我们这样描述loss函数

L'(\theta) = L(\theta) + \lambda \sum_ib_i(\theta_i-\theta^b_i)^2

$b_i$ $L(\theta)$ $L'(\theta)$ $\lambda \sum_ib_i(\theta_i-\theta^b_i)^2$ $\theta_i$ $\theta^b_i$ $b_i$ $\theta_i, \theta^b_i$ 足够接近的期望（即参数的前序任务表现的重要性）。

并不是所有参数都需要这个约束规定：（有以下两种极端情况）

$b_i=0$ $\theta_i$ 而言没有限制，最终导致Catastrophic Forgetting
$b_i= \infin$ $\theta_i$ $\theta^b_i$ 相接近甚至相等，最终导致Intransigence（不妥协、不肯让步），实际上没有在新任务上learn的必要了，尽管旧任务上表现良好，但新任务上永远学不好。